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81675 MUNCHEN 
Einrichtung zixr Sprachsyn-these 

Die Erfindung betrifft eine Sprachsyntheseeinrichtung, 
die Wellensegmente, 2,B. Tonwellensegmente und Quasispractiwel- 
lensegmente kompiliert, urn eine Sprachwelle zu reproduzieren, 

Es ist bekannt, daB von den verschiedenen Sprachwellen 
die Wellen von stiitimhaf ten Tonen, z.B- von Vokalen, eine 
redundance Tonstruktur haben, bei der die gleiche Welle 
innerhalb einer Periode von 2 oder 3 ms bis zu 10 ms im 
wesentlichen mehrere Male bis zu ein Dutzend Male wiederholt 
wird. Herkommlicherweise haben Sprachsynthesizer bisher ein 
Phonemsegmentkompilierverfahreri xinter Verwendung der oben 
erwahnten Tonstruktur verwendet, um eine synthetisierte 
Sprache zu erzeugen. Sprachsynthesizer dieser Art wiederholen 
und verbinden Tonwellensegmente oder Quasisprachwellensegmente 
fur einen vorbestimmten Zeitraum, um eine Sprachwelle zu 
synthetisieren* Dies dient dazu, die Menge der We liens egment- 
daten ftir die Tonwellensegmente oder Quasisprachwellensegmente 
zu verringern, und es wird eine hohe Qualitat der am Ende 
erreichten synthetisierten Sprache beibehalten. 

Da jedoch ein herkommlicher Sprachsynthesizer.,. der das 
Segmentkompilierverfahren, wie oben beschrieben, verwendet, 
eine Sprachwelle dadiirch synthetisiert , daB er fiir eine 
vorbestimmte. Zeitdauer einfach Tonwellensegmente oder 
Sprachwellensegmente, die auf den Tonwellensegmenten basieren, 
wiederholt oder verbindet, entstehen dort Verzerrungen, wo die 
Tonwellensegmente oder Quasisprachwellensegmente, wie oben be- 
schrieben, verbunden werden. 

Fig. 4 zeigt ein Beispiel fur das Tonwellensegment, das 
bei der Sprachwellenf ormsynthese verwendet wird. Jeder Doppel- 
kreis in Fig. 4 zeigt den abgetasteten Wert zu jeder Abtast- 
zeit (nachstehend Abtastwert genannt) ; die durchgezogenen 
Linien, die von diesen Punkten senkrecht zur Zeitachse verlau- 
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fen, stellen die Abtastzeit dar; die gestrichelten Linien, die 
zwischen den Abtastpunkten senkrecht zur Zeitachse verlaufen, 
stellen die interpolierte Abtastzeit dar, zu der der Abtast- 
wert interpoliert wird, um wahrend der Wellenf ormsynthese den 
inter poller ten Wert auszugeben. Das Tonwellensegment geiaaS 
Fig. 4 kahn je nach der Position, an der die Welle den Null- 
punkt durchquert, einer der folgenden vier Wellentypen sein. 

Insbesondere wird die Abtastzeitdauer Ts in zwei Phasen 
eingeteilt, wobei die erste mit PI uhd die nachste mit P2 
bezeichnet wird. Somit fallt beim Wellentyp (1) gexaaB Fig. 
4(a) der Nulldurchgangspunkt m fur die interpolierte Wellen- 
form des oberen Oder (hier durchgangig austauschbar : ) fulir en- 
den Abtastwertes des Tonsegiaents in den Bereich P2 und der 
Nulldurchgangspunkt o fur die interpolierte Wellenform des En- 
dabtastwertes des Tonsegments in den Bereich P2 . Beim Wellen- 
typ (2) gemaB Fig. 4(b) fallt der Nulldurchgangspunkt fur die 
interpolierte Wellenform des oberen oder fuhrenden Abtastwer- 
tes des Tonsegments in den Bereich PI und der Nulldurchgangs- 
punkt fur die interpolierte Wellenform des Endabtastwertes des 
Tonsegments in den Bereich PI. Beim Wellentyp (3) gemaB Fig - 
4(c) fallt der Nulldurchgangspunkt fur die interpolierte 
Wellenform des oberen Abtastwertes des Tonsegments in den 
Bereich P2 und der Nulldurchgangspunkt fur die interpolierte 
Wellenform des Endabtastwertes des Tonsegments in den Bereich 
PI. Beim Wellentyp (4) gemaB Fig. 4(b) fallt der. Nulldurch- 
gangspunkt fQr die interpolierte Wellenform des oberen Abtast- 
wertes des Tonsegments in den Bereich PI und der Nulldurch- 
gangspunkt fQr die interpolierte Wellenform des Endabtastwer- 
tes des Tonsegments in den Bereich P2. Wenn die Tonwellenseg- 
mente jedes der oben beschriebenen Wellentypen also einf ach 
wiederholt uhd verbunden werden, wird die Tonperiode, wo die 
Segmente verbunden werden, um einen Betrag phasenverschoben, 
der der halben Abtastzeitdauer entspricht , was zur Verzerrung 
fahrt, was wiederum einen Unterschied zur ursprtinglichen Welle 
bedeutet . 

Das heiBt, wenn beispielsweise gleiche Wellen des Typs 
(3) einf ach verbunden werden, wird die Phase der resultieren- 
den Welle um einen halben Abtastzyklus verzogert, wie in Fig. 
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5(b) dargestellt. Wenn ferner gleiche Wellen des Typs (4) 
einfach verbunden werden, wird die Phase der resultierenden 
Welle um einen halben Abtastzyklus nach vorn verschoben, wie 
in Fig. 5(c) dargestellt. In diesem Fall tritt beim Anstieg 
des Tonwellensegments Interferenz auf, und die Tonqualitat der 
am Ende synthetiisierten Sprache verschlechtert sich deutlich. 
Die verschlechterung der Tonqualitat ist besonders stark, wenn 
die Tonperiode kurz ist (d.h. wenn die Tonfrequenz hoch ist), 
wie das bei- Frauenstiimnen der Fall ist. 

WO-A-85/04 747 beschreibt eine Text-Sprache-Umwandlung 
durch Steuern der Tpnf reqtuenz , da die ursprtingliche Tonfre- 
quenz der zu verbindenden Wellenf ormsegmente sich von der 
Tonfrequenz unterscheidet , die erforderlich ist, um die 
Sprachsyn these durchzuf tihren. 

Um das oben erSrterte Problem zu losen, gibt es zwei 
Verfahren. Beim ersten Verfahren wird ein Tonwellensegment 
herausgetrennt, durch schnelle Fourier-Transf ormations- 
(FFT-)Analyse zeitweilig in eine Frequenzachsenweile umgewan- 
delt und mittels umgekehrter FFT nach Phasenkorrektur wieder 
in eine Zeitachsenwelle zuriickverwandelt, so daJ3 beide Enden 
des Tonwellensegments sich dem Wert Null nahern konnen. Beim 
anderen Verfahren wird mittels linearer pradiktiver Codierung 
(LPC) der einen Tonwelle, die herausgetrennt worden ist, eine 
Impulsantwortwelle erzeugt, und diese Impulsantwortwelle wird 
als Tonwellensegment verwendet. Bei den oben genannten Verfah- 
ren liegen jedoch die Enden des Tonwellensegments nicht nahe 
genug an dem Wert Null, und die Verzeirrung bleibt somit im 
Tonwellensegment erhalten, was zu Veranderungen des Tons 
fuhrt. 

Es ist daher eine Aufgabe der Erfindung, eine 
Sprachsyntheseeinrichtung bereitzustellen, die durch ein 
einf aches Verfahren, bei dem die Wellensegmente verbunden 
werden, synthetische Sprache ohne Tonqualitatsstorungen 
erzeugt. Diese Aufgabe wird rait den Merkmalen der AnsprQche 
gelost. 

Eine Sprachsyntheseeinrichtung, wie beschrieben, kompi- 
liert Wellensegmente, z.B. Tonwellensegmente der Sprache, um 
Sprache zu synthetisieren , und weist auf : einen Verbindungsty- 
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pspeicher zum Speichern eines Verbindungstyps , der den Verbin- 
dungszustand des Punktes beschreibt, an dem die Wellensegmente 
verbunden werden ; und einen Wellensegmentverbinder , der beim 
Verbinden der , Wellensegmente den Endabtastpunkt und den 
fuhrenden Abtastpunkt der Wellensegmente mit einer herkommli- 
chen Abtastzeitdauer oder mit einer herkommlichen Abtastzeit- 
dauer, die entsprechend dem in Verbindungstypspeicher gespei- 
cherten Verbindungstyp urn lediglich 1/2 der Abtastzeitdauer 
zusammengedruckt oder gedehnt wird, verbindet. 

Wenn also Sprachwellensegmente kompiliert werden, um 
Sprache zu synthetisieren^ wird der im Verbindungstypspeicher 
gespeicherte Veirbindungstyp abgefragt. Entsprechend dem 
abgef ragten Verbindungstyp werden der End- und der f iihrende 
Abtastpunkt der Wellensegmente verbunden mit einer herkommli- 
chen Abtastzeitdauer oder mit einer herkommlichen Abtastzeit- 
dauer, die um lediglich 1/2 der Abtastzeitdauer zusammenge- 
druckt Oder gedehnt wird, so daB die Wellensegmente ubergangs- 
los verbunden werden, um eine synthetische Sprachwelle bereit- 
zustellen. 

Die Erfindung wird nachstehend mit Bezug auf die Zeich- 
nungen naher beschrieben. Dabei zeigen: 

Fig. 1 ein Blockschaltbild einer bevorzugten Ausfiih- 
rungsform einer Sprachsyntheseeinrichtung gemaB der Erfindung; 

Fig. 2 eine grafische Darstellung des Formats fur die 
Speicherung der Tonwellensegmentdaten in einem Festwertspei- 
cher (ROM); 

Fig. 3 ein Ablauf diagramm , das die Auf einanderf olge des 
Ablaufs des Sprachsynthesevor gangs darstellt; 

Fig. 4(a)_ bis Fig. 4(d) Zeichnungen zur Beschreibung 
der Wellentypen; 

Fig. 5(a) bis Fig. 5(c) grafische Darstellungen zur Er- 
lauterxing der Wellentypen und ihrer Verbindungsverf ahren; 

Fig. 6(a) bis Fig. 6(d) grafische Darstellungen zur Er- 
lauterung der Wellentypen gemaB einer alternativen erfindungs- 
gemaBen Ausf uhrungsf orm; und 

Fig. 7(a) und 7(b) grafische Darstellungen zur Erlaute- 
rung der Wellentypen und ihrer Verbindungsverf ahren gemaB 
einer alternativen erf indungsgemaBen Ausf uhrungsf orm. 
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Die erste bevorzugte erf indungsgemaBe Ausffihrungsf orm 
wird nachstehend mit Bezug auf Fig. i beschrieben, die ein 
Blockschaltbild einer erf indungsgemaBen Sprachsyntheseeinrich- 
tung darstellt. 

Bezugszeichen i bezeichnet einen Steuerungs-ROM 
(Festwertspeicher) , der ein Steuerprogramm speichert, das von 
der CPU (zentrale Verarbeitungseinheit) 5 zur Sprachsynthese 
verwendet wird; Bezugszeichen 2 bezeichnet einen RAM 
(Direlctzugriffsspeicher) , der als Arbeitsspeicher wahrend der 
Sprachsynthese verwendet wird; Bezugszeichen 3 bezeichnet 
einen Daten-ROM, der verwendet wird, um Sprachcodierungsdaten 
zu speichern; Bezugszeichen 4 bezeichnet eine E/A-Schnitt- 
stelle, durch die zu Beginn der Sprachsynthese land anderer 
Vorgange Eingangs/Ausgangssignale laufen; Bezugszeichen 6 
bezeichnet einen D/A-Wandler, der zur Digital-Analog-Wandlung 
von Sprachwellendaten, die unter der Steuerung der CPU synthe- 
tisiert werden, verwendet wird; und Bezugszeichen 7 bezeichnet 
exnen Verstarker, der eine analoge Eingangssprachwelle ver- 
starkt: und sie an einen Lautsprecher 8 iibergibt. 

Der Steuerungs-ROM 1, der RAM 2, der Daten-ROM 3, die 
E/A-Schnittstelle 4, die CPU 5 und der D/A-Wandler 6, c3ie alle 
in dsr Sprachsyntheseeinrichtung mit dem oben beschriebenen 
Aufiaau verwendet werden, konnen auf einem einzigen Chip 
integriert sein. Es ist auch inoglich, einen externen Daten-ROM 
9 zma. Speichern der Sprachcodierungsdaten als Systemerweite- 
rung zu verwenden. 

Wenn ein Startsignal , das erforderlich ist, um die 
Sprachsynthese auszulosen, in die Sprachsyntheseeinrichtung 
mit dem oben beschriebenen Auf bau iiber die E/A-Schnittstelle 4 
aus einer externen Quelle eingegeben wird, beginnt die CPU 5 
den Spractisynthesevorgang, der auf dem Steuerungsprogramm 
berulit, das im Steuerungs-ROM 1 gespeichert ist. Dabei werden 
von .dter CPU 5 Sprachsynthesewellendaten erzeugt, die auf den 
Sprachcodierungsdaten basieren, die im Daten-ROM 3 gespeichert 
sind. Die erzeugten Sprachsynthesewellendaten werden vom D/A- 
Wandler 6 in ein Analogsignal umgewandelt, dann vom Verstarker 
7 verstarkt und schlieBlich als synthetisierte Sprache vom 
Lautsprecher 8 ausgegeben. 
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Wie weiter unten beschrieben, erzeugt. die erf indungsge- 
maBe Sprachsyntheseeinrichtung synthetisierte Sprache, die 
frei von Storungen des Tonwellehanstiegs ist, indem Wellenseg- 
mente, z.B, Tonwellensegmente oder Quasisprachwellensegmente , 
verbunden werden, um die synthetisierte Sprache zu erzeugen. 

Wenn bei einem ersten Verfahren geiaaB Fig. 5(a) der 
Zeitachsennulldurchgangspunkt der interpolierten Wellenform 
f Qr den Endabtastwert des vorangegangenen Tonwellensegments 
und der Zeitachsennulldurchgangspunkt der interpolierten 
Wellenform fur den oberen Abtastwert des folgenden Tonwellen- 
segments beide im Bereich P2 liegen, wenn die Wellen aufgrund 
der Verbindung gleicher Wellen des Typs (l) oder ungleicher 
Wellen des Typs (l) und des Typs (3), wie in Fig. 4(a) und 
4(c) dargestellt, und wenn der Zeitachsennulldurchgangspunkt 
der interpolierten Wellenform fur den Endabtastwert des 
vorangegangenen Tonwellensegments und der Zeitachsennulldurch- 
gangspunkt der interpolierten Wellenform fur den oberen 
Abtastwert des folgenden Tonwellensegments beide im Bereich PI 
liegen, wenn die Wellen aufgrund der Verbindung gleicher 
Wellen des Weilentyps (2) oder ungleicher Wellen des Wellen- 
typs (2) und des Weilentyps (4) verbunden werden, werden der 
Endabtastwert und der obere Abtastwert der Tonwellensegmente 
am herkommlichen Abtastpunkt ausgegeben, und die Tonwellenseg- 
mente werden verbunden. Danach werden die interpolierten Werte 
zwischen dem Endabtastwert und dem oberen Abtastwert 
(dargestellt durch ein Dreieck mit durchgezogenen Linien). in 
einem Punkt berechnet, der gleich 1/2 Abtastintervall Ts ist 
und so ausgegeben^ daB die beiden Tonwellensegmente iibergangs- 
los verbunden werden konnen. Im folgenden wird die Verbindung 
von solchen Tonwellensegmenten, wie eben beschrieben, als 
Verbindungstyp Oa bezeichnet. 

Wenn, wie in Fig. 5(b) dargestellt, der Zeitachsennull- 
durchgangspunkt der interpolierten Wellenform fur den Endabta- 
stwert des vorangegangenen Tonwellensegments im Bereich Pi 
liegt und der Zeitachsennulldurchgangspunkt der interpolierten 
Wellenform fiir den oberen Abtastwert des folgenden Tonwellen- 
segments im Bereich P2 liegt, wenn die Wellen aufgrund der 
Verbindung ungleicher Wellen des Typs (2) und des Typs (1) 



Oder Wellen des Typs (2) und des Typs (3) verbunden werden, 
werden die Wellensegmente nicht am herkommlichen Abtastpunkt 
verbunden; das herkommliche Abtastinteirvall zwischen dem 
Endabtastpunkt und dem oberen Abtastpunkt wird urn 1/2 zusam- 
mengedruckt und wird dann ausgegeben, um die Tonwellensegmente 
zu verbinden. Im folgenden wird die Verbindung von solchen 
Tonwellensegmenten, wie eben beschrieben, als Verbindungstyp 
la bezeichnet. 

Wenn, wie in Fig. 5(c) dargestellt, der Zeitachsennull- 
durchgangspunkt der interpolierten Wellenform fur den Endabta- 
stwert des vorangegangenen Tonwellensegments im Bereich P2 
liegt und der Zeitachsennulldurchgangspxinkt der interpolierten 
Wellenform f iir den oberen Abtastwert des folgenden Tonwellen- 
segments im Bereich Pi liegt, wenn die Wellen aufgrund der 
Verbindung von ungleichen Wellen des Typs (1) und des Typs (2) 
Oder von Wellen des Typs (1) und des Typs (4) verbunden 
werden, werden die Wellensegmente im herkommlichen Abtastpunkt 
nicht verbunden; das herkommliche Abtast interval 1 zwischen dem 
Endabtastwert und dem oberen Abtastwert wird um 1/2 gedehnt 
und dann ausgegeben, um die Tonwellensegmente zu verbinden. 
Der Zeitraum zwischen dem Endabtastwert und dem oberen Abtast- 
wert der Tonwellensegmente wird wie folgt interpoliert. 

Wenn wir insbesondere annehmen, daB der Endabtastwert 
des vorangegangenen Tonwellensegments |xl| betrSgt und der 
obere Abtastwert des folgenden Tonwellensegments |x2| betragt, 
wenn | xl | > | x2 1 , wird der interpolierte Wert xl/2 nach dem 
Endabtastwert jxlj (insbesondere dem hoheren Spitzenwert) 
berechnet und wird dann in Interval len von Ts/2 ausgegeben. 
Ais nachstes wird der Zeitraum zwischen diesem interpolierten 
Wert xl/2 und dem oberen Abtastwert |x2| (insbesondere dem un- 
teren Spitzenwert) interpoliert und dann ausgegeben. Im 
folgenden wird die Verbindung von solchen Tonwellensegmenten, 
wie eben beschrieben, als Verbindungstyp 2- (a!) bezeichnet. 
Wenn ferner |xl|<|x2|, wird der interpolierte Wert x2/2 des 
vorausgegangenen oberen Abtastwertes |x2| berechnet und dann 
in Intervallen von Ts/2 ausgegeben. Als nachstes wird der 
Zeitraum zwischen diesem interpolierten Wert x2/2 und dem 
oberen Abtastwert | xl | (insbesondere dem unteren Spitzenwert) 



interpoliert und dann ausgegeben. Im folgenden wird die 
Verbindung von solchen Tonwellensegmenten, wie eben beschrie- 
ben, als Verbindungstyp 2-(b) beschrieben. 

Bei dem zweiten Verfahren wird das Abtasten in einem 
Zyklus durchgef lihrt , der zweimal (das Zweifaclie der Frequenz) 
so groB ist, wie im Nyquist-Theorem definiert. Unabhangig 
davon, ob die Abtastung in einem geradzahligen Abtastpunkt 
Oder einem longer adzahligen Abtastpunkt stattfindet, werden die 
Abtastdaten, die zur Sprachsynthese verwendet werden, im 
Standardzyklus des Nyquist-Theorems vom Abtastpunkt an, der 
dem Anstieg des Tonsegments am nachsten ist, erneut abgeta- 
stet. Diese Welle ist in Fig. 6(a) bis 6(b) dargestellt. Hier 
sind die geradzahligen Abtastpunkte die Abtastpunkte 
(dargestellt durch eine durchgezogene Linie in Fig. 6), die im 
Nyquist-Theorem-Zyklus auftreten, , und die ungeradzahligen 
Abtastpunkte (dargestellt durch eine gestrichelte Linie in 
Fig. 6) sind die Abtastpunkte, die zwischen den geradzahligen 
Abtastpunkten auftreten. In diesem Fall sind die Abtastdaten, 
die in den Abtastpunkten ermittelt werden, die durch einen 
Doppelkreis dargestellt werden, die Abtastpunkte (im folgenden 
als Zielabtastpunkte bezeichnet) , die das Ziel der Sprachsyn- 
these sind. Diese Segmente konnen entweder Wellentyp (1) oder 
Wellentyp (2) sein. 

Wenn, wie in Fig. 7(a) dargestellt, der Zeitachsennull- 
durchgangspunkt der interpolierten Wellenform fur den- Endabta- 
stwert, der das Ziel der Sprachsynthese fur das vorangegangene 
Tonwellensegment ist (im folgenden Endzielabtastwert genannt) 
und der Zeitachsennulldurchgangspunkt der interpolierten 
Wellenform fur den f uhrenden Abtastwert des folgenden Tonwel- 
lensegments beide aufgrund der Verbindung von gleichen Wellen 
des Typs (5) bder ungleichen Wellen des Typs (5) und des. Typs 
(6) im Bereich P2 liegen, werden der Endzielspitzenwert, der 
das Ziel der Sprachsynthese ist, und der fiihrende Zielabtast- 
wert an dem Abtastpunkt ausgegeben, der das Ziel der Sprach- 
synthese ist, um die Tonwellensegmente zu verbinden. Danach 
wird am halben Punkt der Zielabtastzeitdauer der Endabtastwert 
q des vorangegangenen Tonwel lensegments als der interpolierte 
Wert ausgegeben, so daB die beiden Tonwellensegmente uber- 
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gangslos verbunden werden konnen. Im folgenden wird die 
Verbindung von solchen Tonwellensegmenten als Verbindungstyp 
Ob bezeichnet. 

Wenn, wie in Fig. 7(b) dargestellt, der Zeitachsennull- 
durchgangspunkt der interpolierten Wellenf orui fur den Endziel- 
abtastwert des vorangegangenen Tonwellensegmen-ts im Bereich Pi 
liegt und der Zeitachsennulldurchgangspunkt der interpolierten 
Wellenform fur den fuhrenden Zielabtastwert des folgenden 
Tonwellensegments im Bereich P2 liegt, werden aufgrund der 
Verbindung von gleichen Wellen des Typs (6) oder ungleichen 
Well en des Typs (6) und des Typs (5) die Tonwellensegmente 
nicht an dem Abtastpunkt verbunden, der das Ziel der Sprach- 
synthese ist; die Zeitdauer zwischen dem Endzielabtastwert und 
dem fuhrenden Zielabtastwert der Tonwellensegmente wird urn 1/2 
zusammengedruckt und dann ausgegeben , urn die Tonwellensegmente 
zu verbinden. Im folgenden wird die Verbindung von solchen 
Tonwellensegmenten als Verbindungstyp lb bezeichnet. 

Fig. 2 zeigt ein Beispiel des Datenf ormats , wenn z.B. 
die Tonwellensegmente analysiert und die resultierenden 
Tonwellensegmentdaten im ROM 3 gespeichert sind (siehe Fig. 
1). Das dargestellte Datenf ormat besteht aus Codierungsdaten 
aus mehreren Tonwellensegmenten, wobei die einzelnen Codie- 
rxingsdaten fur jedes Tonwellensegment Interpolationsdaten und 
Sprachdaten aufweisen. Die Interpolationsdaten bestehen aus 
Endsegmentdaten 11, die anzeigen, ob das Tonwellensegment das 
letzte Tonwellensegment ist oder nicht, Codierungsverf ahrens- 
daten 12, die das Verfahr en anzeigen, das verwendet wird, urn 
die Abtastdaten des Tonwellensegments zu codieren, Wiederho- 
lungsanzahldaten 13, die anzeigen, wie oft das Tonwellenseg- 
ment wiederholt wxirde, Verbindungstypdaten 14, wie in Fig. 5 
und Fig. 7 dargestellt, zur Verwendung, wenn das gleiche 
Tonwellensegment wiederholt wird, und Verbindungstypdaten 15 
(im folgenden als Folgetonwellensegmentverbindungstyp bezeich- 
net) zur Verwendung, wenn das gegebene Tonwellensegment mit 
dem nachsten angrenzenden Tonwellensegment verbunden ist. Die 
Sprachdaten weisen Abtastwertanzahldaten 16, die die Anzahl 
der codierten Daten angeben, die im Tonwellensegment enthalten 
sind, und eine Serie von mehreren codierten Daten 17 bis 19 
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ftir jeden Abtastpunkt , der in der Spradisynthese verwendet 
wird, auf. Diese codierten Daten warden als eine Bitfolge 
entsprechend dem Codierungsverf ahren ( z . B . Pulscodemodulation 
(PCM) Oder adaptive Dif f erenzpulscodemodulation (ADPCM) ) 
gespeichert:, die in den Codierungsverf ahrensdaten 12 fur die 
Interpol at ionsdat en gespeichert ist. 

Mit Bezug auf das Ablaufdiagramm gemaB Fig. 3 wird 
nachstehend der Sprachsynthesevorgang genauer beschrieben, bei 
deia die Tonwellensegmente , die Wellensegmente sind, verbunden 
werden und Sprache mittels der Verf ahren 1 und 2, die oben be- 
schrieben worden sind, synthetisiert wird* 

In Schritt SI wird ein Byte der Interpolationsdaten aus 
den Tonwellensegmentdaten gelesen, die im Daten-ROM 3 entspre- 
chend dem Format gemaB Fig. 2 gespeichert sind, und das Byte 
wird in die Endsegmentdaten 11, die Codierungsverf ahrensdaten 
12, die Wiederholungsanzahldaten 13, die Verbindungstypdaten 
14 und den Folgetonwellensegmentverbindungstyp 15 eingeteilt. 
Auf der Girundlage der gewonnenen Inf ormationen werden jeweils 
das Endsegmentdaten-Flag, das Codierungsverf ahren-Flag, der 
Wiederholungszahler , der Wiederholungisverbindungstyp und der 
Folgetonwellensegmentverbindungstyp im RAM 2 gesetzt. Der RAM 
2 hat einen Bereich zum Speichern des Wiederholungsverbindung- 
styps zur Wellensegmentverbindung und eines Tonwellensegment- 
verbindungstyps zur Wellensegmentverbindung, und der Wiederho- 
lungsyerbindungstyp der vor angegangenen Tonwellensegmentdaten 
und der Folgetonwellensegmentverbindungstyp werden beide dort 
gesetzt. 

In Schritt S2 werden Abtastwertanzahldaten 16, die die 
Anzahl der codierten Daten eines Tonwellensegments angeben, 
aus den Daten-ROM 3 gelesen, und diese Anzahl wird im RAM 2 
als Abtastwertanzahl gesetzt. 

In Schritt S3 wird das erste codierte Datenelement aus 
den Daten-ROM 3 gelesen. 

In Schritt S4 wird das erste codierte Datenelement ent- 
sprechend dem Codierungsverf ahren decodiert, die im Codie- 
rungsverf ahren-Flag des RAM 2 gesetzt worden ist, und der 
obere Abtastwert des Tonwellensegments wird berechnet. Der in- 
terpolierte Wert der Zeitdauer zwischen diesem oberen Abtast- 
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wert und dem folgenden Abtastwert (auf der Grundlage des 
zweiten codierten Datene laments) wird dann berechnet. Als 
nachstes wird der Interpolationsvorgang, der zum Verbinden mit 
dem vorangegangenen Tonwellensegment erforderlich ist, ent- 
sprechend dem Folgetonwellensegmentverbindungstyp der vorange- 
gangenen Tonwellensegmentdaten ausgefuhrt, die im Wiederho- 
lungsverbindungstyp far Tonwellensegmente im RAM 2 gesetzt 
worden sind. Ferner wird der Zeitablauf fur die Ausgabe des 
berechneten oberen AbtastWertes an den D/A-Wandler 6 berechnet 
(wenn der Verbindungstyp Oa und Ob ist, wird der normale 
Zeitablauf ausgegeben; wenn der Verbindungstyp la und lb ist, 
wird der Zeitablauf eines Abtastzyklus ausgegeben, der um 1/2 
nach vom verschoben ist; wenn der Verbindungstyp 2a und 2b 
ist, wird der Zeitablauf eines Abtastzyklus ausgegeben, der um 
1/2 verzogert ist) . 

In Schritt S5 werden der obere Abtastwert, der in 
Schritt S4 berechnet worden ist, und der Ausgabezeitablauf der 
vorangegangenen und der folgenden interpolierten Werte, die in 
Schritt S4 berechnet worden sind, an den D/A-Wandler 6 iiberge- 
geben . 

Das heiJ3t, die Interpolation wird entsprechend den vier 
Verbindungstypen, die in Fig. 5 dargestellt sind, durchgefQhrt 
und zwar unabhangig davon, pb die Zeitdauer zwischen dem 
Endabtastwert des vorangegangenen Tonwellensegments und dem 
oberen Abtastwert des gegenwartigen Tonwellensegments lam 1/2 
Abtastzyklus gedehnt oder zusammengedruckt worden sin^7 und 
danach findet die D/A-Wandlung statt. 

In Schritt S6 werden die nachsten codierten Daten (die 
zweiten codierten Daten) aus dem Daten-ROM 3 gelesen. 

In Schritt S7 werden die nachsten codierten Daten ent- 
sprechend dem Codierungsverfahren decodiert, und der nachste 
Abtastwert wird berechnet. Danach wird der interpolierte Wert 
der Zeitdauer bis zum nachsten Abtastwert berechnet. Der 
berechnete Abtastwert und der interpolierte Wert werden mit 
dem normalen Zeitablauf ( insbesondere am normalen Abtastpunkt) 
iibergeben . 

In Schritt S8 wird der Abtastwertzahler um 1 erhoht, 
und es wird aufgrund dieses Wertes f estgestellt , ob die 



Verarbeitung der codierten Daten des augenblicklichen Tonwel- 
lensegments beendet worden ist oder nicht. Wenn festgestellt 
wird, daB die gesamte Verarbeitxing beendet worden ist/ geht 
der Ablauf weiter mit dem Schritt S9; wenn nicht, erfolgt eine 
Ruckkehr nach Schritt S6; und in beiden Fallen wird die 
Verarbeitung der nachsten codierten Daten ausgefuhrt. 

In Schritt S9 wird der Wiederholungsverbindungstyp der 
vorangegangenen Tonsegmentdaten, der im Wiederholungsverbin- 
dungstyp fur Tonwellensegiaente in RAM 2 gesetzt worden ist, 
zuruckgesetzt auf den Wiederholungsverbindungstyp der gegen- 
wartigen Tonwellensegmentdaten , der im Wiederholungsverbin- 
dungstyp in RAM 2 gesetzt worden ist. 

In Schritt SIO wird der Wiederholungszahler in RAM 2 um 

1 verringert, und es wird auf der Grundlage dieses Wertes 
festgestellt, ob alle Wiederholungen des gegenwartigen Tonwel- 
lensegments beendet sind oder. nicht. Wenn Beendigung festge- 
stellt wird, geht der Ablauf weiter mit dem Schritt Sll; wenn 
nicht, erfolgt eine Ruckkehr nach Schritt S3, die ersten 
codierten Daten des gegenwartigen Tonwellensegments werden 
wiederuia eingegeben, und eine erneute Verarbeitung wird 
ausgefiihrt. 

In Schritt Sll wird der nachste Tonwellensegmentverbin- 
dungstyp der vorangegangenen Tonwellensegmentdaten, der im 
nachsten Tonwellensegmentverbindungstyp fur Tonwellensegmente 
in RAM 2 gesetzt worden ist, zuruckgesetzt auf den nachsten 
Tonwellensegmentverbindungstyp der gegenwartigen Tonwellenseg- 
mentdaten, der im Folgetonwellensegmentverbindungstyp von RAM 

2 gesetzt worden sind. 

Im Schritt S12 wird das Ends egmentdaten- Flag in RAM 2 
aiigefragt, um f estzustellen, ob das gegenwartige Tonwellenseg- 
ment das Eridsegment ist. Wenn ja, wird der Sprachsynthesevor- 
gang beendet; wenn nein, erfolgt eine RQckkehr nach Schritt 
SI, die nachsten Tonwellensegmentdaten werden gelesen, und die 
Verarbeitung der nachsten Tonwellensegmentdaten beginnt. 

Somit werden die Wellensegmentverbindungstypen anhand 
der Kombination der Verbindungen von Tonwellensegmenten 
verschiedener Wellentypen kategorisiert . Auf der Grundlage des 
Verbindungstyps kann die Zeitdauer zwischen dem Endabtastpunkt 
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und deia fiilirenden Abtastpunkt der verbundenen Tonwellenseg- 
mente um 1/2 der normalen Abtastzeitdauer zusammengedruckt 
odeir gedehnt warden, Oder es kann die normale Abtastzeitdauer 
verwendet werden, um die Wellensegmente zu verbinden. Somit 
konnen die Tonwellensegmente durch einen einfachen Vorgang 
iiber^angslos verbunden werden , ohne daB eine Phasenverschie- 
bung bei der Verbindung der Tonwellensegmente erzeugt wird. 
Das heiBt, bei einer Sprachsyntheseeinrichtung gemaB der 
Erflndung tritt beim Anstieg des Tonwellensegments keine 
Verzerrung auf , und es wird keine Tonqualitatsverschlechterung 
her-xroirgeruf en . 

Bei der bevorzugten Ausf iihrungsf orm, wie oben beschrie- 
ben^ wird ein Tonwellensegment als Wellensegment verwendet, 
je(iTi?:iS:i ist die Erfindung nicht darauf beschrankt, und ein 
Sprachwellensegment, das einem Tonwellensegment entspricht , 
kann ebenfalls verwendet werden, 

Wie aus der vorangegangenen Beschreibung der Erfindung 
betaannt ist, treten bei der Verbindung von Wellensegmenten bei 
der synthetischen Sprache , die durch die erf indungsgemaBe 
Spr-achsyntheseeinrichtung erzeugt wird, keine Phasenversctiie- 
bun^en auf. Dieser Vorteil beruht darauf, daB die 
Spraycfesyntheseeinrichtung mit dem Wellensegmentverbinder 
ausgestattet ist, der einen Verbindungstyp speichert, der den 
Typ der Verbindung zwischen den Wellensegiuenten in der Sprache 
in elTiem Verbindungstypspeicher speichert. Wenn f erner die 
Wellensegmente verbunden werden, um Sprache zu synthetisieren, 
werden der Endabtastpunkt und der fuhrende Abtastpunkt der 
Wellensegmente entsprechend dem Verbindungstyp, der im Verbiri- 
durfegstypspeicher gespeichert ist, um ^ine normale Abtastzeit- 
dauesr oder um eine Abtastzeitdauer, die um 1/2 der Zeitdauer 
zusammengedriickt oder gedehnt ist, miteinander verbunden. 

Dadurch kann der Zeitraum zwischen Tonwellensegmenten 
intferpoliert werden , und die Segmente konnen durch einen 
einfachen Vorgang ubergangslos verbunden werden. Somit kann 
durcsfe die Erfindung Sprachsynthese , die frei von Verzerrungen 
im Anstieg der verbundenen Wellensegmente ist und keine 
Ver-schlechterung der Tonqualitat aufweist, erreicht werden. 
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Obwohl die Erfindung im Zusammenhang mit den bevorzug- 
ten Ausfuhrungsfonaen mit Bezug auf die beigefugten Zeichnun- 
gen vollstandig beschrieben worden ist, beachte man, daB fiir 
den Fachmann verschiedene Anderungen und Modif ikationen 
offensichtlich sind. Solche Veranderungen und Mbdif ikationen 
gelten als in den Umfang der Erfindung eingeschlossen , der in 
den beigefugten Patentanspruchen definiert ist. 



EP-B-0 351 848 

89 11 3343.1 

Sharp Kabushiki Kaisha 

u.Z. : Y 970 EP 



Patentanspruche 



1- Sprachsyntheseeinrichtung zum Verbinden von Wellen- 
segmenten, um eine synthetisierte Sprache zu erzeugen, die 
frei von Verzerrungen im Tonwellenanstieg ist, mit: 

a) einem Verbindungstypspeicher zum Speichern mehrerer 
bevorzugter Verbindungstypen fur Wellensegmente, wobei die 
Verbmdungstypen jeweils eine Verbindung einer interpolierten 
wellenform fur einen Endabtastwert eines vorangegangenen 
Wellensegments eines bestirunten Typs mit einer interpolierten 
Wellenform fiir einen . ftihrenden Abtastwert eines folgenden 
Wellensegments eines bestiiamten Typs darstellt, wobei jeder 
der bevorzugten Verbindungstypen eine bevorzugte Abtastzeit- 
dauer zur Verwendung wahrend der Verbindung der Wellensegiaente 
festlegt; und 

b) einem Wellensegmentverbinder zum Festlegen bestimm- 
ter Typen von Wellensegmenten zum Vergleich mit den mehreren 
bevorzugten Verbindungstypen durch Interpolieren eines zeit- 

achsennulldurchgangspunkts fur die interpolierte Wellenform 
fur den Endabtastwert des vorangegangenen Wellensegments und 
ernes Zeitachsennulldurchgangspunkts fur die interpolierte 
Wellenform far den fuhrenden Abtastwert des folgenden Wellen- 
segments, wobei der Wellensegmentverbinder Verbindung der 
Wellensegmente unter Verwendung einer der bevorzugten Abtast- 
zeitdauern herstellt. 

2. Sprachsyntheseeinrichtung nach Anspruch i, wobei die 
bevorzugte Abtastzeitdauer eine Abtastzeitdauer aufweist,, die 
aus exner Gruppe ausgewahlt wird, die aus einer vorbestimmten 

zeitdauer, einem Zweifachen einer vorbestimmten Abtast- 
zeitdauer und einer HSlfte einer vorbestimmten Abtastzeitdauer 
besteht. 

3. Sprachsyntheseeinrichtung nach Anspruch 1 oder 2, 
wobei die besagten mehreren bevorzugten Verbindungstypen 
aufweisen: 
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a) einen ersten Verbindungstyp , bei dem sowohl der Zei- 
tachsennulldurchgangspunkt der Interpol ierten Wellenform fur 
den fiihrenden Abtastwert des folgenden Wellensegments als auch 
der Zeitachsennulldurchgangspunkt des . Interpol ierten Wellen- 
segments fur den Endabtastwert des vorangegangenen Wellenseg- 
ments innerhalb einer zweiten- Halfte einer vorbestimmten 
Abtastzeitdauer liegen; 

b) einen zweiten Verbindungstyp, bei dem sowohl der 
Zeitachsennulldurchgangspunkt der Interpol ierten Wellenform 
fur den fuhrenden Abtastwert des folgenden Wellensegments als 
auch der Zeitachsennulldurchgangspunkt des Interpol ierten 
Wellensegments ftir den Endabtastwert des vorangegangenen 
Wellensegments in einer ersten Halfte einer vorbestimmten 
Abtastzeitdauer liegen; 

c) einen dritten Verbindungstyp , bei dem der Zeitach- 
sennulldurchgangspunkt der Interpol ierten Wellenform ftir den 
fuhrenden Abtastwert des folgenden Wellensegments in einer 
zweiten Halfte einer vorbestimmten Abtastzeitdauer liegt und 
der Zeitachsennulldurchgangspunkt des interpol ierten Wellen- 
formsegments fur den Endabtastwert des vorangegangenen Wellen- 
segments in einer ersten Halfte einer vorbestimmten Abtast- 
zeitdauer liegt; 

d) einen vierten Verbindungstyp, bei dem der Zeitach- 
sennulldurchgangspunkt der interpol ierten Wellenform fiir den 
fuhrenden Abtastwert des folgenden Wellensegments in einer er- 
sten Halfte einer vorbestimmten Abtastzeitdauer liegt und der 
Z e i tachs ennu 1 1 dur chgangs punkt des in ter po 1 ierten We 1 1 ens eg- 
ments fur den Endabtastwert des vorangegangenen Wellensegments 
in einer zweiten Halfte einer vorbestimmten Abtastzeitdauer 
liegt. 

4. Sprachsyntheseeinrichtung nach Anspruch 1, 2 oder 3, 
bei dem die Wellensegmente Sprachtonsegmente aufweisen. 

5* Sprachsyntheseeinrichtung nach einem der Anspruche 1- 
bis 4, wobei die Wellensegmente Sprachwellensegmente aufwei- 
sen. 

6, Sprachsyntheseeinrichtung nach Anspruch 5, wobei die 
Sprachwellensegmente Quasisprachwellensegmente aufweisen. 
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7. Sprachsyntheseeinrichtung nach einem der Anspriiche 1 
bis 6, wobei eine Festwertspeichereinrichtxing ein Steuerungs- 
programm zur Verwendung durch eine zentrale Verarbeitungsein- 
heit fur Sprachsynthese speichert, eine Zuf allsachsenspeicher- 
einrichtung als Arbeitsspeicher wahrend der Sprachsynthese 
verwendet wird, eine Festweirtdatenspeichereinrichtung verwen- 
det wird , um Sprachcodierungsdaten zu speichern , eine Einga- 
be/Ausgabe-Schnittstelle vorhanden ist, liber die zu Beginn der 
Sprachsynthese und wahrend anderer Vorgange Ein- 
gangs/Ausgangssignale lauf en , ein Digital-Analog-Wandler zum 
Umwandeln von Sprachwellendaten vearwendet wird, die xinter der 
Steuerung der zentralen Verarbeitungseinheit synthetisiert 
worden sind, und wobei ein Verstarker eine analoge Eingangs- 
sprachwelle verstarkt und an einen Lautsprecher tibergibt. 

8. Verfahren zum ubergangslosen Verbinden von Wellen- 
segmenten, um synthetische Sprache zu erzeugen, die frei von 
Verzerrungen im Tonwellenanstieg ist, mit den Schritten: 

a) Identifizi er en e i ne s Ze it achs ennui 1 dur chgangspunkts 
fur eine interpolierte Wellenform eines Endabtastwertes eines 
vorangegangenen Wellensegments ; 

b) Festlegen eines Zeitachsennulldur chgangspunkts fur 
eine interpolierte Wellenform eines fuhrenden Abtastwertes ei- 
nes folgenden Wellensegments; 

c) Vergleichen der Zeitachsennulldurchgangspunkte des 
vorangegangenen Wellensegments und des folgenden Wellenseg- 
ments mit einem Verbindungstypspeicher , um einen bevorzugten 
Wellensegmentsverbindungstyp auszuwahlen; 

d) Auswahlen eines bevorzugten Wellensegmentsverbind\mgs- 
typs und einer bevorzugten Abtastzeitdauer ; und 

e) Verbinden des vorangegangenen Wellensegments mit dem 
folgenden Wellensegment unter Verwendung des ausgewahlten 
bevorzugten Wellensegmentverbindungstyps und der ausgewahlten 
bevorzugten Abtastzeitdauer, um eine synthetisierte Sprache 
herzustellen, die unabhangig ist von Verzerrungen im Tonwel- 
lenanstieg. - 

9. Verfahren nach Anspruch 8, wobei der Schritt des 
Auswahlens eines bevorzugten Wellensegmentverbindungstyps und 
einer bevorzugten Abtastzeitdauer die Schritte aufweist: 
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a) Kategorisieren der kombinierten Zeitachsennulldurch- 
gangspunkte von jeder der interpolierten Wellenf orxnen fur das 
vorangegangene Wellensegment land das folgehde Well ens egment 
2um Anpassen an die ahnlichste Speicherwellenf orm, die iia 
Wellensegmentverbindungstypspeicheir gespeichert ist; und 

b) Interpolieren der bevorzugten Abtastzeitdauer ent- 
sprechend dem bevorzugten Wellensegmentverbindungstyp aus den 
Abtastzeitdauerauswahldaten^ die vorbestimmte Abtastzeitdaten, 
ein Zweifaches der vorbestimnten Abtastzeitdaten und eine 
Halfte der vorbestimmten Abtastzeitdaten aufweisen* 
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